Serveur d'exploration sur l'OCR

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies

Identifieur interne : 001953 ( Main/Exploration ); précédent : 001952; suivant : 001954

Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies

Auteurs : Pascal Vaillant [France] ; Laurence Likforman [France] ; Sulem Francois Yvon [France]

Source :

RBID : Pascal:03-0421241

Descripteurs français

English descriptors

Abstract

Dans le cadre d'une application de messagerie, il est indispensable de pouvoir donner à l'utilisateur des informations-clés sur chaque message qu'il reçoit, comme par exemple des mots-clés reflétant l'objet du message, ou le nom de l'expéditeur. Or si ces informations sont faciles à déterminer dans les courriers électroniques, il n'en est rien pour les télécopies, pour lesquelles aucune norme ne définit l'équivalent d'un en-tête. Le but du travail présenté ici est de reconnaître une information ciblée - le nom de l'expéditeur - dans le contenu d'une page initiale de télécopie. Pour cela, on utilise en même temps des méthodes fondées sur l'analyse du document image (reconnaissance OCR - Optical Character Recognition -, sélection des blocs physiques pertinents) et sur des méthodes d'analyse du contenu linguistique (recherche dans des dictionnaires optimisés, règles de grammaire locale), et l'on fait fusionner leurs résultats. On obtient ainsi un résultat plus fiable qu'en utilisant chacune des deux méthodes séparément.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="fr" level="a">Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies</title>
<author>
<name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
</titleStmt>
<publicationStmt>
<idno type="wicri:source">INIST</idno>
<idno type="inist">03-0421241</idno>
<date when="2002">2002</date>
<idno type="stanalyst">PASCAL 03-0421241 INIST</idno>
<idno type="RBID">Pascal:03-0421241</idno>
<idno type="wicri:Area/PascalFrancis/Corpus">000600</idno>
<idno type="wicri:Area/PascalFrancis/Curation">000191</idno>
<idno type="wicri:Area/PascalFrancis/Checkpoint">000580</idno>
<idno type="wicri:Area/Main/Merge">001A33</idno>
<idno type="wicri:Area/Main/Curation">001953</idno>
<idno type="wicri:Area/Main/Exploration">001953</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="fr" level="a">Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies</title>
<author>
<name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
<author>
<name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
<affiliation wicri:level="3">
<inist:fA14 i1="01">
<s1>ENST/LTCI - Laboratoire de Traitement et Communication de l'Information, 46 rue Barrault.</s1>
<s2>75634 Paris</s2>
<s3>FRA</s3>
<sZ>1 aut.</sZ>
<sZ>2 aut.</sZ>
<sZ>3 aut.</sZ>
</inist:fA14>
<country>France</country>
<placeName>
<region type="region" nuts="2">Île-de-France</region>
<settlement type="city">Paris</settlement>
</placeName>
</affiliation>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>Content analysis</term>
<term>Data fusion</term>
<term>Document image</term>
<term>Facsimile</term>
<term>Image analysis</term>
<term>Information extraction</term>
<term>Optical character recognition</term>
<term>Proper noun</term>
</keywords>
<keywords scheme="Pascal" xml:lang="fr">
<term>Télécopie</term>
<term>Extraction information</term>
<term>Nom propre</term>
<term>Analyse image</term>
<term>Reconnaissance optique caractère</term>
<term>Analyse contenu</term>
<term>Fusion donnée</term>
<term>Document image</term>
</keywords>
<keywords scheme="Wicri" type="topic" xml:lang="fr">
<term>Télécopie</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr">Dans le cadre d'une application de messagerie, il est indispensable de pouvoir donner à l'utilisateur des informations-clés sur chaque message qu'il reçoit, comme par exemple des mots-clés reflétant l'objet du message, ou le nom de l'expéditeur. Or si ces informations sont faciles à déterminer dans les courriers électroniques, il n'en est rien pour les télécopies, pour lesquelles aucune norme ne définit l'équivalent d'un en-tête. Le but du travail présenté ici est de reconnaître une information ciblée - le nom de l'expéditeur - dans le contenu d'une page initiale de télécopie. Pour cela, on utilise en même temps des méthodes fondées sur l'analyse du document image (reconnaissance OCR - Optical Character Recognition -, sélection des blocs physiques pertinents) et sur des méthodes d'analyse du contenu linguistique (recherche dans des dictionnaires optimisés, règles de grammaire locale), et l'on fait fusionner leurs résultats. On obtient ainsi un résultat plus fiable qu'en utilisant chacune des deux méthodes séparément.</div>
</front>
</TEI>
<affiliations>
<list>
<country>
<li>France</li>
</country>
<region>
<li>Île-de-France</li>
</region>
<settlement>
<li>Paris</li>
</settlement>
</list>
<tree>
<country name="France">
<region name="Île-de-France">
<name sortKey="Vaillant, Pascal" sort="Vaillant, Pascal" uniqKey="Vaillant P" first="Pascal" last="Vaillant">Pascal Vaillant</name>
</region>
<name sortKey="Likforman, Laurence" sort="Likforman, Laurence" uniqKey="Likforman L" first="Laurence" last="Likforman">Laurence Likforman</name>
<name sortKey="Yvon, Sulem Francois" sort="Yvon, Sulem Francois" uniqKey="Yvon S" first="Sulem Francois" last="Yvon">Sulem Francois Yvon</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 001953 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 001953 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     Pascal:03-0421241
   |texte=   Exploitation d'informations spatiales et textuelles en analyse de documents : le cas des télécopies
}}

Wicri

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024